
OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!
OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
刚刚,Local AI 领域的 Libra 团队发布了一段最新技术演示视频,展示了用户通过自然语言交互直接生成 Agent,并利用本地消费级算力支持 Agent 进行长程 (Long-Horizon) 推理,最终完成复杂任务。
2025年,人工智能领域正在经历一场由LLM Agent引发的深刻变革,不管普通人的衣食住行还是研究者的尖端研究,都很难不受Agent的影响。
什么?! 用AI Agent搞的小红书账号,竟然14天狂吸5000粉,还开始赚钱了???
Manus能撑起5亿美元估值吗?今年3月初,一款名为“Manus”的通用AI agent产品发布之后爆火。到了3月底,Manus的母公司Butterfly Effec被爆正寻求新一轮融资,目标估值将超过5亿美元。
在互联网时代,数据已成为企业发展的必经之路。
晚点:过去将近 6 个月,AI 领域最重要的两件事,一是 OpenAI 去年 9 月 o1 发布,另一个是近期 DeepSeek 在发布 R1 后掀起全民狂潮。我们可以从这两个事儿开始聊。你怎么看 o1 和 R1 分别的意义?
AI Agents,Agentic AI,Agentic Architectures,Agentic Workflows......
随着 AI Agent 元年的到来,一个新的趋势正在兴起:初创公司提供工具,帮助雇主打造一支机器人队伍。
CB Insights 最近基于他们的数据调研和分析,绘制了覆盖 26 个细分领域的 170 余家 AI Agent 初创企业的市场格局图谱。同时也探讨了关于 AI Agent 的当前进展、面临的挑战及未来发展路径,以下为全文内容。